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模块 度 增 量 与 局 部 模块 度 引 导 下 的 社区 发 现 算法 
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摘 要 : 社区 结构 是 复杂 网 络 的 重要 特性 之 一 ， 基 于 层次 聚 类 的 社区 发 现 算 法 很 好 地 利用 了 模块 度 来 挖 据 网 络 中 的 社 
区 结构 ， 但 其 局 限 性 也 导致 算法 对 社区 结构 复杂 的 网 络 划 分 不 够 准确 、 无 法 发 现 小 于 一 定 规模 的 社区 。 在 层次 聚 类 的 
基础 上 ， 提 出 引入 局 部 模块 度 来 弥补 模块 度 在 划分 社区 时 的 不 足 ， 训 免 可 能 出 现 的 划分 不 合理 情况 。 通 过 真实 数据 集 
和 人 工 网 络 进行 了 验证 ， 实 验 结 果 证 明 ， 该 算法 具有 可 行 性 与 有 效 性 
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Communities detection during increment of modularity and local modularity 


Liu Mingyang, Zhang Xihuang 
(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China) 


Abstract: Community structure is one of the important characteristics of Complex Network, the community detection algorithms 
with hierarchical clustering makes good use of modularity to achieve community detection, but its limitations lead to poor 
detection quality of networks which have complex structure of community and it may fail to identify communities smaller than 
a scale. This paper used local modularity to make up the lack of modularity on the basis of hierarchical clustering, it can avoid 
unreasonable result. The algorithm is tested on real-world data sets and artificial network, experimental results confirm that it 
has feasibility and effectiveness. 
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0 引言 1 ”相关 工作 


:三 自然 界 和 人 类 社会 中 大 量 的 复杂 系统 都 可 以 被 描述 成 由 许 从 2002 年 Newman 和 Girvan 提出 网 络 中 存在 社区 结构 
-多 节点 和 一 些 连 接 节点 间 的 边 构成 的 复杂 网 络 ， 其 中 节点 代表 始 中 ， 发 现 及 分 析 复杂 网 络 中 的 社区 结构 得 到 了 广泛 的 关注 和 
真实 系统 中 不 同 的 个 体 ， 而 边 表示 个 体 之 间 的 关系 。 例 如 ， 社 ”研究 ， 同 时 也 诞生 了 许多 社区 发 现 算法 。 目 前 ， 主 流 的 社区 发 
交 网 络 中 每 个 节点 代表 一 个 用 户 ， 每 条 边 表示 两 个 用 户 之 间 存 。 现 算法 类 型 有 谱 平 分 法 、 标 签 传播 方 法 、 甜 阵 分 块 方法 以 及 层 


在 某 种 关系 。 次 聚 类 方法 等 。 
基于 复杂 网 络 的 小 世界 特性 和 无 标 度 特 性 ， 网 络 中 少数 节 社区 发 现 的 谱 平 分 法 主要 包括 基于 Laplace 和 矩阵 向 和 基于 
点 拥有 大 量 的 连 边 ， 而 大 部 分 节点 拥有 少量 连 边 ， 使 得 网 络 中 ”Normal 矩阵 全 的 方法 。 基 于 Laplace 矩阵 的 谱 平分 法 把 网 络 的 


群 特性 巾 ， 而 社区 发 现 就 是 用 来 发 气 网 络 聚 身 Laplace 和 矩阵 作为 研究 对 象 ，Laplace 矩阵 的 特征 值 均 为 实数 是 
行为 的 一 种 技术 。 近 年 来 社区 发 现 的 研究 已 经 发 展 为 复杂 网 络 。 总 有 一 个 特征 值 是 0， 所 以 第 二 小 特征 值 所 对 应 的 特征 向 量 为 
研究 领域 中 的 重要 部 分 之 一 ， 具 有 广阔 的 应 用 前 景 。 例 如 ， 在” 甜 阵 的 第 一 个 非 平凡 特征 向 量 ， 该 特征 向 量 的 元 素 即 为 社区 划 
社交 网 络 中 ,用 户 与 用 户 之 间 建 立 好 友 关 系 形成 了 不 同 的 群体 ， 分 的 依据 四。 基于 Normal 矩阵 的 谱 平分 法 也 是 根据 特征 向 量 中 
通过 对 这 些 群 体 中 用 户 之 间 存 在 的 共性 进行 分 析 ， 进 而 为 信息 “元素 呈现 的 特征 结构 来 划分 社区 的 。 标 签 传播 方法 通过 模拟 信 
传播 、 精 准 营销 、 兴 趣 点 推荐 等 提供 宝贵 的 情报 支持 。 因 此 ， 息 在 节点 之 间 的 传播 过 程 生成 社区 ， 典 型 的 标签 传播 算法 有 
分 析 复 杂 网 络 中 承载 的 社区 结构 对 发 现 个 体 的 行为 规律 和 实际 LPA 算法 外 和 SLPA 算法 加。LPA 算法 为 所 有 节点 赋予 一 个 唯 
网 络 的 设计 与 建设 具有 重要 的 指导 意义 。 一 的 标签 ， 然 后 统计 某 个 节点 所 有 邻居 节点 的 标签 ， 将 出 现 次 
数 最 多 的 那个 标签 赋予 当前 节点 ， 最 后 将 所 有 拥有 相同 标签 的 


的 节点 呈现 出 引 
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节点 归并 到 同一 个 社区 。 而 SLPA 算法 在 LPA 的 基础 上 引入 了 
Speaker 和 Listener 两 个 概念 ， 是 对 LPA 算法 的 一 种 改进 。 和 拢 
阵 分 块 方法 将 具有 紧密 连接 关系 的 节点 重新 排列 ， 并 从 中 识别 
出 比较 稠密 的 矩阵 块 中 ， 典 型 的 矩阵 分 块 算法 有 MB-DSGE 算 
法 。MB-DSGE 算法 四 通过 构建 一 棵 完整 的 层次 树 , 根据 密度 阔 
值 找 到 社区 结构 。 层 次 聚 类 方法 根据 网 络 的 层次 化 特性 发 现 社 

， 将 网 络 中 pn 点 作为 初始 节点 ， 然 后 从 候选 节点 的 集 
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到 最 大 值 是 一 个 NP 难题 ， 因 此 ，Newman 提出 了 模块 度 增 量 


的 概念 ， 其 定义 为 009] 


AQ 二 2(e; dix 0j) (2) 
> DP， 
CQ 起 nex (3) 
2m 


其 含 义 是 合并 社区 i 和 社区 j 后 产生 的 模块 度 变 化 量 AQ ， 
ei 0 i、j 两 个 社区 的 边 数 所 占 网 络 中 总 边 数 m 比例 的 


合 中 筛选 出 最 合适 的 节点 与 初始 节点 合并 ， 通 过 这 样 的 方式 不 
扩展 社区 规模 等 人 引入 了 模块 度 (modularity) 中 的 
概念 来 评价 社区 结构 划分 的 质量 ， 自 此 很 多 研究 者 提出 了 基于 
模块 度 的 社区 发 现 算法 , 例如 Newman 提出 了 基于 层次 聚 类 的 
Fast-Newman 算法 LUD， 该 算法 基于 最 大 化 模块 度 的 贪 栖 思想 ， 


Newman 冬 


YN 


其 中 i j ， 当 ij 两 个 社区 之 间 不 存在 连 边 时 ， ej)=0 。 
Ds 是 社区 x 内 节点 的 节点 度 ,m 为 社区 x 的 总 边 数 , 当 AQO>0 
时 ， 说 明 社 区 i 和 j 合并 后 模块 度 0 增 大 ， 反 之 则 减 小 。 
模块 度 的 可 靠 性 得 到 了 广泛 的 认同 ， 然 而 ，Fortunato 等 人 
[4 提出 了 模块 度 在 定义 上 的 局 限 性 。 他 们 指出 ， 根 据 模块 度 的 
多 | 


Fy 


合并 能 够 产生 最 大 模块 度 的 两 个 社区 ， 直 到 模块 度 达到 最 大 值 
为 止 。Clauset 等 人 提出 了 CNM 算法 001， 优 化 了 节点 归并 操作 


的 同时 采用 堆 的 数据 结构 ， 使 得 算法 的 复杂 度 进一步 降低 。 为 
了 有 效 识别 大 规模 复杂 网 络 的 社区 结构 ， 研 究 人 员 相 继 开 展 了 


关于 大 规模 复杂 网 络 社区 发 现 算法 的 研究 , 例如 Clauset02 提 出 
了 基于 CNM 算法 的 社区 并 行 识别 方法 ， 采 用 并 行 计算 的 方式 
社区 合并 操作 的 效率 。Riedy 等 人 (3 提出 利用 具有 多 核 
处 理 器 的 服务 器 并 行 计算 最 大 模块 度 的 值 来 进行 社区 发 现 等 。 
自 模块 度 提 出 以 来 ， 将 模块 度 作 为 划分 社区 的 依据 得 到 了 


定义 , 若 包含 站 条 内 部 边 且 内 部 节点 的 总 节点 数 是 Di 的 子 图 演 


则 这 个 子 图 即 可 视 为 一 个 社区 。 但 是 在 模块 


足 二 -CPP>0， 


度 QO 增 大 的 过 程 中 ， 若 满足 此 不 等 式 的 社区 的 内 部 边 数 1 小 于 
vi ， 即 使 社区 间 的 连接 十 分 稀疏 , 它们 也 会 被 合并 成 一 个 大 
社区 05。 网 络 中 存在 许多 像 这 样 小 于 一 定 规模 的 社区 ， 那 
么 模块 度 2 的 最 大 值 对 应 的 社区 划分 可 能 是 许多 满足 模块 度 定 
义 的 小 社区 的 合并 ， 出 现 远 大 于 其 他 社区 规模 的 超大 社区 
(Monster)， 也 就 是 说 ， 模 块 度 并 没有 发 现 并 分 辨 网 络 中 存在 的 


又 
广泛 的 认可 。 然 而 ， 由 于 定义 本 身 存 在 的 局 限 性 ， 使 得 模块 度 
存在 分 辩 率 限制 问题 。 本 文 根 据 模块 度 的 优 缺 点 ， 提 出 将 模块 
度 增 量 与 局 部 模块 度 (local modularity) 相 结合 , 解决 基于 模块 度 
的 社区 发 现 算 法 在 划分 社区 时 的 局 限 性 问题 ， 保 证 社区 发 现 的 
准确 性 与 稳定 性 。 


2 ”模块 度 增 量 与 局 部 模块 度 引 导 下 的 社区 发 现 算法 


2.1 基本 概念 

定义 1 社区 。 在 图 G=(V,E) 所 定义 的 网 络 中 , 人 表示 网 
络 中 节点 的 集合 ,，E 表示 网 络 中 边 的 集合 。 社 区 是 网 络 G 的 一 
个 子 图 ， 同 一 社区 内 节点 之 间 的 连接 紧密 ， 而 不 同 社区 之 间 节 
点 连接 相对 稀疏 。 
定义 2 ”模块 度 。 为 了 判断 网 络 的 社区 结构 划分 是 否 具 有 
合理 性 与 有 效 性 ，Newman 等 人 提出 了 模块 度 的 概念 ， 
作为 社区 划分 效果 的 评价 指标 。 模 块 度 0 定义 为 四 


6s 3 如] 0) 


其 中 :m 是 网 络 的 总 边 数 , Ii 是 社区 i 内 部 总 边 数 , Di; 是 社区 i 内 
部 所 有 节点 的 节点 度 之 和 ， 节 点 度 即 与 社区 中 某 一 节点 相连 的 
边 的 总 数 。 
模块 度 的 实际 物理 含义 是 指 网 络 中 社区 内 部 边 所 占 的 比例 
与 在 同样 的 社区 结构 下 随机 连接 社区 的 边 所 占 的 比例 的 期 望 值 
相 减 得 到 的 差 值 。0 的 最 大 值 介 于 0 到 1 之 间 ，0Q 值 越 大 ， 网 
络 的 社区 结构 越 明 显 ， 划 分 效果 越 好 ， 所 以 当 0 达到 最 大 时 ， 
说 明 社 区 划分 达到 了 最 佳 效 果 馈 。 然 而 ， 判 断 模块 度 O 是 否 


小 于 一 定 规模 的 小 社区 ， 有 可 能 出 现 社区 划分 结果 不 合理 的 情 


讽 。 
定义 3 局 部 模块 度 。 在 模块 度 的 基础 上 ，Clauset 提出 了 
局 部 模块 度 的 概念 。 局 部 模块 度 的 定义 为 0 
B; o(i,j 
2 0 信访 7 @) 
之 Bs T 


在 图 G=(V,E) 所 定义 的 网 络 中 ， 社 区 C 是 网 络 的 一 个 子 
图 , D 是 网 络 中 除 社区 C 以 外 的 网 络 结构 , i 和 j 是 网 络 中 两 个 
不 同 的 节点 ， 表 示 节 点 i 与 j 之 间 的 连 边 ， 则 边界 邻接 矩阵 B, 
定义 为 


l; i<jieC ,jEeV ,<i,j>eE 
B = J J J (5) 
0; otherwise 
当 i<j， 并 且 i 是 社区 C 中 的 节点 ， 节 点 j 属 于 社区 C 或 


除 社区 C 以 外 的 网 络 结构 D， 若 节点 i 与 j 之 间 存 在 连 边 ， 则 
Bi =1; 否则 B; =0。 当 节点 i 和 j 均 属于 社区 C 且 i 与 j 之 间 
有 连 边 时 ，6(i, 站 =1; 否则 6(i,j)=0。 所 以 , 局 部 模块 度 R 即 
为 社区 内 部 边 的 边 数 了 与 连接 社区 内 节点 所 有 边 的 边 数 了 的 比 
值 。 一 个 社区 的 内 部 边 越 多 ， 外 部 边 越 少 ， 则 该 社区 的 局 部 模 
块 度 R 值 越 大 ， 说 明 社 区 内 部 连接 越 紧密 ， 社 区 结构 越 清 晰 。 
本 文选 择 以 局 部 模块 度 为 指标 抑制 大 社区 进一步 扩展 ， 以 保证 
小 社区 得 到 更 加 充分 的 发 展 ， 使 得 社区 发 现 质量 得 到 一 定 的 提 
高 。 
2.2 算法 描述 

本 节 对 算法 的 步 又 进行 详细 措 


提出 算法 的 伪 代 码 。 
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算法 的 具体 步骤 为 应 社区 模块 度 增 量 之 和 ， 以 表 2 中 <5,1>( 社 区 5 与 社区 1) 的 模 
a) 参 数 初始 化 。 在 初始 化 阶段 计算 出 所 有 算法 所 需 的 参数 ， ” 块 度 增 量 为 0.020 为 例 ， 其 为 表 1 中 <2,1> 的 模块 度 增 量 0.036 
主要 包括 网 络 的 节点 数 与 边 数 mm, 以 及 各 个 节点 的 节点 度 友 ， 和 <4,1> 的 模块 度 增 量 -0.016 之 和 。 与 上 述 推论 相 比 ,在 第 二 和 
将 每 一 个 节点 作为 一 个 社区 , 根据 公式 (2) 和 (3) 计 算出 每 个 节点 第 三 中 情况 下 无 须 计算 社区 所 对 应 的 a 的 值 , 更 新 时 只 需 将 对 
对 之 间 的 模块 度 增 量 AO ， 并 将 Ag 的 值 存储 在 一 个 nxn 的 数 应 的 模块 度 增 量 相 加 ， 简 化 了 运算 过 程 。 
据 框 (DataFrame)Q_matrix 中 ， 构 建 模块 度 增 量 矩 阵 。 例 如 ， 节 表 1 社区 合并 前 的 ao 矩阵 
点 x 与 节点 yy 之 间 的 模块 度 增 量 的 值 为 AO,, ， 则 将 AQ, 放 入 社区 编号 3 
数据 框 Q_matrix 的 第 x 行 第 y 列 与 第 y 行 第 x 列 中 ; 当 x=y | Ga 页 员 
时 ，AQ, =0， 所 以 Q_matrix 是 一 个 主 对 角 线 上 的 元 素 等 于 0 3 i036 0 二 1 看 
的 对 称 矩 阵 。 3 0.023 -0.015 0 0.030 
b) 在 所 有 节点 对 中 查找 最 大 模块 度 增 量 和 对 应 的 节点 组 合 。 了 1 
在 构建 模块 度 增 量 矩阵 的 同时 ， 寻 找 具 有 最 大 模块 度 增 量 的 节 
点 对 <x,y>。 如 果 发 现 节点 对 <x,y> 中 的 某 个 节点 与 其 他 多 表 2 合并 社区 2 和 4 后 的 Ao 矩阵 
个 节点 之 间 具 有 同样 的 最 大 模块 度 增 量 ， 则 下 一 步 将 这 些 节点 社区 编号 1 3 5 
合并 为 同一 个 社区 ， 并 赋予 新 社区 新 的 编号 。 例 如 ， 节 点 对 1 0 0023 0020 
<i,j> 和 节点 对 <i,k> 具 有 相同 的 最 大 模块 度 增 量 和 AO，， 那 3 D0 i ee 
么 可 以 先 将 节点 i、j 合 并 为 一 个 新 社区 !/， 然 后 再 将 节点 上 与 5 0.020 0.015 0 
社区 1 合并 。 
co) 合并 社区 并 更 新 模块 度 增 量 和 矩阵 ,文献 [11] 提 出 了 将 两 个 计算 社区 的 局 部 模块 度 。 用 式 (4)(5) 计 算 合并 后 新 社区 的 
不 同 的 社区 合并 后 新 社区 与 其 他 社区 之 间 模 块 度 增 量 的 计算 推 ” 局 部 模块 度 ， 在 合并 的 过 程 中 ， 可 能 有 小 部 分 的 节点 加 入 使 得 
论 : 己 知 合并 的 两 个 社区 为 i 和 j， 它们 合并 后 的 新 社区 编号 为 ” 局 部 模块 度 R 下 降 , 但 R 的 整体 趋势 是 逐渐 上 升 的 。 当 社区 外 
Atk> 门 ， 新 社区 大 与 其 他 社区 h 的 模块 度 增 量 为 AQ,,， 有 以 下 的 节点 x 加 入 时 ， 令 原来 社区 内 部 边 的 边 数 为 Fw， 连 接 社 区 内 
三 种 情况 : 部 节点 与 社区 外 部 节点 的 边 的 边 数 为 Low， 社 区 的 局 部 模块 度 
(a) 当 社区 有 与 社区 i、j 均 有 连接 或 均 无 连接 时 , 新 社区 _ ,省 点 x 与 社区 内 节点 连接 的 边 力 数 为 广 ， 与 社区 
与 社区 h 的 模块 度 增 量 为 Lin + Lou 
AO, = AQ, + AO;, (6) 外 节点 连接 的 边 数 为 ， 则 节点 x 加 入 后 ，R 的 值 为 09 


(b) 当 社区 有 与 社区 i 有 连接 但 与 社区 j 无 连接 时 ， 代 入 式 


7 士 记 Lat 


G)， 新 社区 与 社区 有 的 模块 度 增 量 为 a 
AO, = AQ, —2x ajx a (7) 6) 查 找 与 新 社区 具有 最 大 模块 度 增 量 的 节点 。 在 矩阵 Q 新 
(0) 当 社区 有 与 社区 j 有 连接 但 与 社区 i 无 连接 时 ， 代 入 式 。 社区 所 在 的 行 中 查找 模块 度 增 量 的 最 大 值 和 对 应 的 社区 。 以 表 
(3)， 新 社区 与 社区 h 的 模块 度 增 量 为 2 为 例 ， 社 区 2, 4 合并 后 的 新 社区 5 与 社区 1 具有 最 大 的 模块 
AGCu = AQ, 2X dix a (8) ” ” 度 增 量 , 则 在 合并 前 需要 判断 社区 1 是 否 可 以 合并 到 社区 5 中 。 
可 以 证 明 , 在 第 三 种 情况 下 ， 式 (7) 与 式 (6) 是 等 价 的 ， 证明 人 判断 社区 是 否 可 以 合并 。 在 合并 前 , 将 与 新 社区 具有 最 大 
过 程 如 下 : 模块 度 增 量 的 节点 c7 作为 社区 外 的 节点 通过 步骤 @ 计 算 合 
AQy, = AQ;, ~2x xan = AQj+(0—2xaxa) 后 的 局 部 模块 度 ， 并 与 前 一 次 的 值 进行 比较 ， 如 果 局 部 模块 度 
因为 社区 j 和 社区 不 相连 ， 所 以 6@=0 增 大 , 则 将 节点 c7 合并 到 社区 中 , 执行 步骤 g 并 返回 步骤 6); 
0-2xgxa,=2x(0—axa)=2x(6 axa)=AQ;, 如 果 局 部 模块 度 减 小 ， 则 执行 步骤 c)e) 后 ， 令 产生 最 大 模块 度 
ACu = AQ,, + AO;, 增 量 的 节点 为 c2， 再 次 通过 步骤 qd) 计 算 社区 的 局 部 模块 度 ， 如 
同 理 地 ， 在 第 三 种 情况 下 ， 式 (8) 和 (6) 也 是 等 价 的 。 所以， ” 果 局 部 模块 度 增 大 ， 则 将 cl 和 c2 合并 到 社区 中 ， 执 行 步骤 9 
合并 的 两 个 社区 为 i 和 j， 新 社区 的 编号 为 k， 新 社区 上 与 其 他 返回 步骤 日 ， 如 果 局 部 模块 度 连 续 减 小 ， 则 说 明 合并 操作 已 
社区 的 模块 度 增 量 为 社区 i 和 社区 j 与 对 应 社区 模块 度 增 量 的 。 达到 社区 层次 的 边界 ， 不 能 将 c! 和 c2 合并 到 社区 中 ， 社 区 已 
和 。 如 表 1 所 示 , 社区 组 合 <2,4> 有 具有 最 大 的 模块 度 增 量 0.043， 经 完成 合并 ， 执 行 下 一 步 又。 如果 步 骤 @@ 中 的 最 大 模块 度 增 量 
则 合并 社区 2 和 社区 4 并 更 新 AO 窍 阵 。 根 据 上 述 证 明 得 到 的 。 的 值 小 于 0， 同 样 将 相应 节点 作为 社区 外 的 节点 通过 步 又 d) 计 
结论 ， 合 并 后 的 结果 如 表 2 所 示 。 算 社区 的 局 部 模块 度 ， 如 果 局 部 模块 度 增 大 ， 则 将 相应 节点 合 
如 表 1、2 所 示 ， 社 区 2 和 社区 4 合并 后 产生 了 新 社区 5， 到 社区 中 , 执行 步 又 并 返回 步骤 日: 如果 局 部 模块 度 减 小 ， 
社区 5 与 社区 1、3 之 间 的 模块 度 增 量 为 社区 2 和 社区 4 与 对 则 不 能 合并 相应 节点 ， 社 区 已 完成 合并 ， 执 行 下 一 步 又 。 
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多 社区 完成 合 


后 ， 将 已 合并 的 节点 和 与 其 相应 的 边 从 网 


络 中 移 除 ， 余 下 部 分 组 成 新 网 络 ， 返 回 步骤 a)， 开 始 发 现下 一 
个 社区 ， 直 到 网 络 中 的 所 有 节点 都 已 完成 合并 ， 算 法 结束 。 


算法 的 伪 代 码 如 下 : 


图 G=(V,E) 


: 社区 集合 C 


1. nenumber_of_nodes(G);// 获 取 网 络 的 节点 数 


2. Lengthe6;// 已 合并 的 节点 数 


3. while (Length < n) 


6. 


if 未 初始 化 then 


Q@ _matrix= initialLization();// 参 数 初始 化 ， 构 建 模块 度 


MCesearchMaxQIndexAndCoLumn(Q@_matrix);// 和 寻找 矩 // 阵 中 


所 有 拥有 最 大 模块 度 增 量 的 节点 对 并 存放 于 队列 MC 


Ee 


块 度 
10. 
11. 


12. 


在 的 行 中 与 新 社区 有 最 大 模块 度 增 量 的 节点 并 加 入 队 // 列 MC 中 


13， 


的 行 中 最 大 的 模块 度 增 量 


14 . 
个 节 
15. 
16. 
17. 
18. 
19. 
20. 
21. 
22. 
23. 
24. 
25， 
26 . 
27. 
28. 
29 . 


36 . 


点 加 入 社 


cemergeTwoNode(MC);// 将 MC 中 的 前 2 个 节点 合并 // 成 新 社 


LengthceLength + 2; 


用 


prior_lm 一 localModularity(c);// 计 算 新 社区 c 的 局 部 模 // 


update(Q_matrix,MC);// 更 新 矩阵 和 队列 MC 


else 


Xx 


MCesearchMaxQIndexInC(Q_matrix);// 查 找 矩 阵 新 社 // 区 所 


maxQesearchMaxQInC(Q@_matrix);// 查 找 矩 阵 新 社区 // 所 在 


now_LmeLocalLModuLarity(c,Xx);// 计 算 队 列 MC 中 的 第 // 一 
时 的 局 部 模块 度 


if now Lm - prior_ Lm < 8 then 


Xl 


RS 


if 局 部 模块 度 连续 下 降 then 
c.pop(-1);// 删 除 上 一 次 合并 中 加 入 社区 c 的 节点 


LengtheLength - 1; 


end if 


if maxq < 6 then 


updateGAndC(c);// 更 新 图 G 并 将 社区 c 加 入 社区 // 列 表 


人 


end if 


else 


xl 


c.insert(Xx);// 将 节点 x 并 入 社 


LengtheLength + 1; 


prior_lm = now_lm; 


returnToUninitialization();// 回 到 未 初始 化 的 状态 


end if 


end if 


end while 


”ChinaXiv 合 期 刊 
刘 明 阳 ， 等 : 模块 度 增 量 与 局 部 模块 度 引 导 下 的 社区 发 现 算 法 


实验 分 析 


3.1 数据 集 描述 


为 了 验证 本 文 提出 的 社区 发 现 算法 具有 
j 两 种 复杂 网 络 数据 集 进行 实验 : 小 规模 真实 社会 网 络 

LFR benchmar 基准 程序 0 生成 的 人 工 模拟 复杂 
所 有 实验 均 采 用 


本 文采 | 
数据 集 和 使 用 
网 络 数据 集 ， 


可 行 性 和 有 效 性 ， 


Python 语言 实现 。 


对 于 小 规模 真实 数据 集 可 
划分 结果 对 比 ， 但 是 在 很 多 真实 数据 集中 难以 获得 真实 准确 的 


以 直接 将 算法 的 输出 结果 与 真实 


民 


社区 结构 信息 ,因此 采 


— 


模块 度 (Q) 来 评价 社区 的 划分 质量 ; 对 


于 较 大 规模 的 人 工 模 拟 


复杂 网 络 数据 集 主要 使 用 标准 互信 息 


(NMD) 和 综合 评价 指标 (Fl1Score) 来 考察 算法 的 划分 结果 。 


3.2 ”真实 社会 网 络 数 据 


集 实验 


a)Zachary Karate Clubl1$1 是 一 个 著名 的 小 规模 真实 社会 网 


络 数据 集 ， 


它 是 基于 美国 一 所 大 学 的 空手 道 俱乐部 34 名 成 员 


间 的 社会 关系 构建 的 。 网 络 包 含 34 个 节点 和 78 条 边 ， 呈 现 出 


分 成 两 个 社区 的 趋势 。 
验 结果 如 图 1 所 示 。 


合用 文本 的 算法 对 该 网 络 进行 划分 ， 实 


图 1 


Zachary Karate Club 的 社区 发 现 结果 


Karate 网 络 被 划分 为 两 个 社区 ， 与 真实 划分 结果 相 比 ， 所 


有 节点 均 被 i 


E 确 划分 到 对 应 的 社区 ， 实 验 结果 良好 ， 证 明 算法 


具有 初步 的 可 行 性 与 有 效 性 。 
b) 本 文 还 在 其 他 小 规模 


选用 
下 简称 Q-Im) 进 行 实 


CNM 算法 、SLPA 


实 网 络 数据 集 上 进行 了 实验 ， 并 
算法 和 Infomap 算法 09 与 本 文 算法 (以 


仿 结 果 的 对 比 。 本 文 实验 所 用 小 规模 真实 


口 个 


网 络 基 本 信息 如 表 3 所 示 。 


表 3 小 规模 真实 网 络 基本 信息 


数据 集 ”节点 数 边 数 备注 
dolphins 62 159 新 西 兰 海豚 关系 网 络 
lesmis 76 254 小 说 《悲惨 世界 》 人 物 关系 网 络 
polbooks 105 441 亚马逊 美国 政治 书籍 网 络 
football 115 616 美国 大 学 生 足 球 联赛 网 络 
jazz 198 2742 欧洲 爵士 乐音 乐 家 合作 网 络 
neural 291 2148 Elegans 神经 网 络 


四 种 算法 在 四 种 数 扫 


虽 集 下 的 实验 结果 如 图 2 所 示 。 
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OCNM QSLPA Oinfomap OQ-Im 


polbooks football 


图 2 算法 在 六 种 数据 集 上 的 模块 度 Q 对 比 


- 
dolphins lesmis 


本 次 实验 选取 模块 度 Q 作为 实验 结果 的 评价 指标 。 其 中 ， 
算法 是 基于 信息 压缩 的 随机 游 走 算法 ， 对 于 所 有 具有 
随机 性 的 算法 都 进行 100 次 实验 然后 将 结果 取 平 均值 。 
可 知 ，Q-lm 在 这 六 种 数据 集中 都 取得 了 良好 的 实验 效果 ， 并 在 
其 中 的 football lesmis 和 neural 网 络 中 得 到 了 最 大 的 模块 度 Q。 
总 体 而 言 , Q-lm 算法 在 部 分 小 规模 真实 网 络 下 表现 出 较 好 的 划 
分 效果 。 
3.3 ”人 工 模拟 复杂 网 络 数据 集 实验 

LFR benchmar 是 由 Lancichinetti 等 人 提出 的 一 种 用 于 生成 
人 工 模拟 网 络 的 基准 程序 ， 可 以 根据 需求 生成 相应 的 人 工 模 拟 
网 络 数据 集 ， 同 时 也 会 生成 数据 集 对 应 的 社区 划分 结果 。 本 文 
使 用 LFR 基准 程序 生成 的 人 工 网 络 图 基本 参数 如 表 3 所 示 , 其 
中 入 表示 节点 数目 ,表示 平均 节点 度 ,maxk 表 示 最 小 节点 度 ， 
minc 表示 规模 最 小 的 社区 所 含 的 节点 数 ，maxc 表示 规模 最 大 
的 社区 所 舍 的 节点 数 ，mu(mixing parameter) 表 示 节 点 与 其 他 社 
区 连接 的 边 数 与 该 节点 的 度数 之 间 的 比值 ， 比 值 越 小 ， 社 区 之 
间 的 界限 越 清 晰 ， 所 以 mu 值 不 宜 过 大 ， 否 则 网 络 的 社区 结构 
过 于 复杂 ， 无 法 取得 良好 的 划分 效果 。 本 次 实验 的 mu 取 值 范 
大 是 [0.05,0.5]， 每 次 递增 0.05 并 生成 10 个 其 他 参数 保持 一 
的 网 络 。 


Infomap 


卫 
网 
iD 


4 


表 4 LFR benchmar 生成 的 人 工 网 络 图 基本 参数 


参数 N k maxk minc maxc mu 
LFR-10000 10000 20 50 20 100 0.05-0.5 
本 次 实验 使 用 两 个 评价 指标 对 比分 析 算 法 的 准确 性 。 第 一 


个 指标 为 标准 互信 息 (NMD， 对 于 已 知 划分 结果 的 网 络 能 够 很 
好 地 评价 社区 的 划分 效果 ， 其 表达 式 如 下 式 所 示 P: 


2》 人》 mas] 
下 SNe 各 中 > wos 各 


其 中 : C4 表示 社区 的 标准 划分 结果 ，Cs 表示 算法 的 划分 结果 ， 
、j 分 别 为 C4 和 Cs 中 的 社区 ，N 为 含混 矩阵， 矩阵 N 的 行 对 
应 社区 的 标准 划分 结果 ， 和 矩阵 的 列 对 应 算法 的 划分 结果 ，Ny 
为 i、j 两 个 社区 中 共有 的 节点 数 ， 第 i 行 的 总 和 记 作 Ni， 第 j 
列 的 总 和 记 作 Nj。NMI 的 取 值 范围 在 0 到 1 之 间 ，NMI 的 值 
越 大 ， 说 明 算 法 的 划分 结果 与 标准 划分 结果 越 相 似 。 


1(A,B)= (10) 


V 合 
刘 明 阳 ， 等 : :A i 
第 二 个 指标 为 综合 评价 指标 (Fl1Score)。F1lScore 的 定义 为 
住 确 率 (precision) 和 召回 率 (recall) 的 调和 平均 数 , 在 统计 学 中 用 
来 衡量 二 分 类 模型 精确 度 ， 也 可 以 用 来 评价 社区 发 现 的 质量 。 
其 定义 如 下 : 


hr 


2 x precision x recall 


FlScore = (11) 


precision x recall 
其 中 : precision 为 分 类 正确 的 节点 占 所 属 社 区 中 所 有 节点 的 比 
例 ,recall 为 分 类 正确 的 节点 占 真实 划分 结果 的 所 属 社 区 中 所 有 
节点 的 比例 。 


本 次 实验 同样 选用 上 述 三 种 算法 与 Q-lm 算法 进行 实验 并 
对 比 实验 结果 ， i 点 较 多 ， 对 于 所 有 具有 随机 性 


的 算法 都 进行 10 次 实验 然后 将 结果 取 平 均值 。 四 种 算法 的 实 


仿 结 果 如 图 3 和 4 所 示 。 
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图 3 算法 在 LFR-10000 上 的 NMI 对 比 


FlScore 


04 一 一 CNM 
03 一 “一 SLPA 
02 —@— Iniomap 


——Q-Im 
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图 4 算法 在 LFR-10000 上 的 FlScore 对 比 


图 3、4 可 知 ， 当 mu 值 较 小 时 ， 社 区 结构 清晰 ， 四 种 算 
法 均 能 获得 良好 的 划分 效果 ， 其 中 Infomap 算法 的 实验 效果 最 
好 。 随 着 mu 逐渐 增 大 ， 社 区 结构 变 得 模糊 ， 四 种 算法 对 应 的 
两 种 指标 都 呈现 下 降 趋 势 ， 差 距 也 越 来 越 明显 。 可 以 看 出 ， 这 
两 种 指标 的 变化 轨迹 大 致 相似 ， 当 mu > 0.3 时 ，Q-lm 算法 的 
NMI 和 FlScore 开始 超过 infomap 算法 ， 并 在 剩余 的 实验 中 取 
得 了 最 好 的 实验 效果 ， 体 现 了 Q-lm 算法 在 划分 社区 边界 模糊 
的 网 络 时 具有 一 定 的 优势 。 
通过 以 上 实验 ， 验 证 了 算法 引入 局 部 模块 度 之 后 在 合并 节 
点 的 过 程 中 能 够 发 现 网 络 中 规模 较 小 的 社区 ， 有 效 抑制 了 社区 
的 过 度 发 展 ， 使 得 网 络 中 各 个 社区 的 规模 均 处 于 比较 合理 的 状 
态 ， 可 以 得 出 结论 ，Q-lm 算法 在 规模 较 大 、 社 区 结构 复杂 的 网 
络 下 表现 出 了 良好 的 可 行 性 与 有 效 性 ， 相 较 于 其 他 算法 在 社区 


录用 稿 


发 现 质量 方面 具有 一 定 的 提 
3.4 算法 时 间 复 杂 度 分 析 
算法 的 时 间 复 杂 度 主要 从 两 个 方面 考虑 : (1) 模 块 度 增 量 入 
阵 的 初始 化 和 更 新 。(2) 社 区 合并 。 初 始 化 模块 度 增 量 和 矩阵 并 寻 
找 最 大 模块 度 增 量 的 节点 对 时 ,需要 遍历 一 次 网 络 中 所 有 的 边 ， 
然后 对 节点 对 和 相应 的 边 进行 处 理 。 当 识别 的 社区 数目 增加 、 
余下 的 网 络 规模 减 小 时 ， 初 始 化 矩阵 的 耗 时 变 得 非常 小 。 假 设 
网 络 中 的 节点 总 数 为 nx， 平 均 每 次 有 x(x<n) 个 节点 需要 合并 ， 
那么 初始 化 和 矩阵、 寻找 节点 对 并 更 新 矩阵 的 时 间 复 杂 度 是 
OG?+x)。 生 成 新 社区 后 ， 遍 历 所 有 与 新 社区 连接 的 节点 寻找 节 
点 对 并 对 矩阵 进行 更 新 操作 ， 设 社区 的 平均 节点 数 为 m， 最 坏 
情况 下 的 时 间 复 条 度 是 OC?+x+xX(m-2)/2), 综 上 , 忽略 掉 时 间 
复杂 度 中 较 小 的 部 分 ， 算 法 的 总 时 间 复 杂 度 为 O(nx+n)。 
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4 ”结束 语 


本 文 提 出 的 算法 基于 模块 度 增 量 的 思想 ， 在 社区 发 现 的 过 
程 中 ， 结 合 复杂 网 络 中 的 相关 概念 对 相应 节点 和 边 进行 一 系列 
操作 ， 引 入 局 部 模块 度 来 控制 社区 的 规模 ， 使 得 社区 划分 结果 
更 加 合理 ， 并 且 运 行 效率 良好 。 通 过 在 真实 网 络 和 人 工 模 拟 网 
络 下 的 实验 ， 并 与 其 他 算法 进行 实验 结果 的 对 比 ， 证 明了 算法 
具有 良好 的 可 行 性 与 有 效 性 ， 尤 其 在 对 社区 结构 复杂 的 网 络 进 
行 社区 发 现时 具有 比较 高 的 准确 度 。 算 法 还 有 很 大 的 提升 空间 


证 


所 以 下 一 阶段 的 工作 是 进一步 提升 算法 的 性 能 ， 提 高 算法 在 大 
规模 网 络 下 的 运行 效率 和 准确 度 ， 使 算法 在 实际 网 络 中 具有 上 比 
较 完 善 的 应 用 价值 。 


参考 文献 : 


UD 


[1] Girvan M, Newman M EJ. Community structure in social and biological 
networks [J]. Proceedings of the National Academy of Sciences of the USA, 
2002, 99 (12): 7821-7826. 

[2] Newman M E J. Communities, modules and large-scale structure in 
networks [可 . Nature Physics, 2012, 8 (8): 25-31. 

[3] Fortunato S. Community detection in graphs [J]. Physics Reports, 2010, 486 
(3—5): 75-174. 

[4] Higham D J, Kalnaa G, Milla K. Spectral clustering and its use in 
bioinformatics [J]. Journal of Computational and Applied Mathematics, 
2007, 204 (1): 25-27. 

[5] Raghavan U N, Albert R, Kumara S. Near linear time algorithm to detect 


community structures in large-scale networks [J]. Physical Review E, 2007, 


| ChinaXiv 合 作 革 
刘 明 阳 ， 等 : 模块 度 增 量 与 局 部 模块 及 YR 


76 (3): 036106. 

[6] Xie Jierui, Kelley S, Szymanski B K. Overlapping community detection in 
networks: The state-of-the-art and comparative study [J]. ACM Computing 
Surveys, 2011, 45 (4): 1-35. 

[7] 尚 茹 文 ， 王 朝 坤 ,， 辛 欣 ,等 . 基于 深度 稀疏 自动 编码 器 的 社区 发 现 算 法 
四 . 软件 学 报 , 2017, 28 (3): 648-662. 

[8] Chen J, Saad Y. Dense subgraph extraction with application to community 
detection [J]. IEEE Trans on Knowledge & Data Engineering, 2012, 24 (7): 
1216-1230. 

9] Newman M EJ,Girvan M. Finding and evaluating community structure in 
networks [J]. Physical Review E, 2004, 69 (2): 026113. 

10] Newman M E J. Fast algorithm for detecting community structure in 

networks [J]. Physical Review E, 2004, 69 (6): 066133. 

11] Clauset A, Newman M E J, Moore C. Finding community structure in very 

large networks [J]. Physical Review E, 2004, 70 (6): 066111. 

12] Clauset A. Finding local community structure in networks [J]. Physical 


Review E, 2005, 72 (2): 026132. 


13] Riedy J, Bader D A, Meyerhenke H. Scalable Multi-threaded Community 
Detection in Social Networks [Cl]// Proc of IEEE International Parallel and 
Distributed Processing Symposium Workshops & Phd Forum. Washington 
DC: IEEE Computer Society, 2012: 1619-1628. 

[14] Fortunato S, Barthelemy M. Resolution limit in community detection [J]. 

Proceedings of the National Academy of Sciences of the USA, 2007, 104 
(1): 36-41. 

[15] 张 聪 , 沈 囊 璋 . 基于 谱 方法 的 复杂 网 络 中 社团 结构 的 模块 度 [J]. 系统 
工程 理论 与 实践 , 2013, 33 (5): 1231-1239. 

[16] 牛 冬 冬 ,， 陈 鸿 禄 ,于 洪涛 ， 
法 [J]. 信息 工程 大 学 学 


. 基于 局 部 模块 度 的 社区 层次 结构 发 现 方 

报 , 2013, 14 (3): 364-370. 

[17] Lancichinetti A, Fortunato S, Radicchi F. Benchmark graphs for testing 
community detection algorithms. [J]. Physical Review E, 2008, 78 (4): 
046110. 

[18] W W Zachary. An information flow model for conflict and fission in small 
groups [J]. Journal of Anthropological Research 33, 1977, 452-473. 

[19] Rosvall M, Bergstrom C T. Multilevel Compression of Random Walks on 
Networks Reveals Hierarchical Organization in Large Integrated Systems 
[J]. PLOS One, 2011, 6 (4): e18209. 

[20] Danon L, Diaz-Guilera A, Duch J, et al. Comparing community structure 
identification [J]. Journal of Statistical Mechnics Theroy and Experiment, 


2005, 2005 (9): P09008. 


